Ітераційна гра з нульовою сумою

Інформація про навчальний заклад

ВУЗ:
Національний університет Львівська політехніка
Інститут:
Не вказано
Факультет:
Не вказано
Кафедра:
Кафедра електронних обчислювальних машин

Інформація про роботу

Рік:
2005
Тип роботи:
Звіт про виконання лабораторної роботи
Предмет:
Теорія колективної поведінки інтелектуальних систем
Група:
КІ-44

Частина тексту файла

Міністерство освіти і науки України Національний університет „Львівська політехніка” Кафедра електронних обчислювальних машин Звіт про виконання лабораторної роботи № 2 з курсу „ Теорія колективної поведінки інтелектуальних систем ” Тема: Ітераційна гра з нульовою сумою Львів – 2005 Мета: Реалізувати програмну модель ітераційної гри з нульовою сумою та дослідити власну поведінку в цій грі. Загальні відомості За допомогою ітераційної гри двох гравців з нульовою сумою (zero-sum game) процес навчання досліджується. Одним гравцем виступає студент, другим – змодельоване середовище (одне з трьох: статичне детерміноване, динамічне детерміноване, стаціонарне випадкове). В кожній партії (ітерації) гри кожний з гравців обирає одиницю або двійку. Мета студента – вгадати хід суперника, мета середовища – протилежна (тобто студент виграє в тих випадках, коли він і середовище обирають однакову дію). Виграшний (правильний) хід приносить гравцю один бал. Перемагає той, хто першим набере 21 бал. Матриця виграшів має наступний вигляд: d2=1 d2=2  d1= 1 S1 = 1 S2 = 0 S1=0 S2=1  d1= 2 S1 = 0 S2 = 1 S1=1 S2=0   d1 – стратегія (дія), яку обирає студент; d2 – стратегія (дія), яку обирає середовище; S1 – виграш студента; S2 – виграш середовища. В процесі гри визначаються три залежності: Залежність біжучого виграшу від часу: S(t). Залежність біжучого сумарного виграшу від часу: S((t) = (St. Залежність біжучого проценту виграшних дій від часу: Ps(t) = (St / t. Поведінка середовищ: Статичне детерміноване середовище завжди обирає одиницю або двійку. Динамічне детерміноване середовище K1=const разів обирає одиницю, далі K2=const разів обирає двійку, після чого цей цикл повторюється. Стаціонарне випадкове середовище з ймовірністю p обирає одиницю, і з ймовірністю (1 - p) обирає двійку. Завдання 1. Скласти програму наступного змісту (алгоритм роботи програми): Випадково вибрати тип середовища (env_model) Ініціалізувати середовище (випадкова ініціалізація) Відкрити файл для збереження результатів Цикл від 1 до T (індекс t) Отримати стратегію (дію), обрану користувачем Отримати стратегію (дію), обрану середовищем Визначити біжучий виграш/програш користувача за допомогою матриці виграшів Модифікувати значення сумарних виграшів користувача та середовища Модифікувати значення проценту виграшних (правильних) дій користувача Якщо користувач або середовище набрали 21 бал, то припинити гру Запам’ятати отримані значення у файлі результатів Перейти на п.4 Закрити файл результатів. 2. Реалізувати моделі наступних типів середовища: 2.1. Статичне детерміноване. 2.2. Динамічне детерміноване. 2.3. Стаціонарне випадкове. 3. Дослідити власну поведінку в реалізованих моделях середовища (метою поведінки є отримання максимального сумарного виграшу за найменшу кількість спроб). Отримати вказані залежності від часу для кожного з типів середовища. 4. Порівняти отримані залежності та зробити висновки. Текст програми /* Copyright (c) 2005 alb. All Rights Reserved. * Multiagent systems Lab * Computer Engineering Department * Lviv Polytechnic National University * =============================================== * Multiagent Systems. Lab work 02. Iterated zero-sum game. * * You are in "game of 21" with environment (opponent). * Available strategies (action space) are D={1,2} * * Payoff matrix for you (used in each iteration of game) is the following * | 1 | 2 | * --------|-------|-------| * 1 | 1 | 0 | * --------|-------|-------| * 2 | 0 | 1 | * ________|_______|_______| * You must try to win in this game mimimizing the number of iterations. */ #include "stdafx.h" int t; // current time step int T = 100; // maximum number of time steps (interactions with environment) int env_model; // environmetn code: // 1 - envoronment with static response // 2 - envoronment with predetermined dynamic response // 3 - envoronment with stationary random response: // binary bandit task (n-armed band...
Антиботан аватар за замовчуванням

01.01.1970 03:01

Коментарі

Ви не можете залишити коментар. Для цього, будь ласка, увійдіть або зареєструйтесь.

Завантаження файлу

Якщо Ви маєте на своєму комп'ютері файли, пов'язані з навчанням( розрахункові, лабораторні, практичні, контрольні роботи та інше...), і Вам не шкода ними поділитись - то скористайтесь формою для завантаження файлу, попередньо заархівувавши все в архів .rar або .zip розміром до 100мб, і до нього невдовзі отримають доступ студенти всієї України! Ви отримаєте грошову винагороду в кінці місяця, якщо станете одним з трьох переможців!
Стань активним учасником руху antibotan!
Поділись актуальною інформацією,
і отримай привілеї у користуванні архівом! Детальніше

Оголошення від адміністратора

Антиботан аватар за замовчуванням

пропонує роботу

Admin

26.02.2019 12:38

Привіт усім учасникам нашого порталу! Хороші новини - з‘явилась можливість кожному заробити на своїх знаннях та вміннях. Тепер Ви можете продавати свої роботи на сайті заробляючи кошти, рейтинг і довіру користувачів. Потрібно завантажити роботу, вказати ціну і додати один інформативний скріншот з деякими частинами виконаних завдань. Навіть одна якісна і всім необхідна робота може продатися сотні разів. «Головою заробляти» продуктивніше ніж руками! :-)

Новини